48 個 の ALU が 並列 動作 する 


実効 性 能 10.@GFLOPS の 
画像 処理 プロ セッ サ を 開発 


ー 一 医療 機器 市 場 の 要求 と プロ セッ サ 開 発 の 経緯 


ーー 村上 


ここ で は , 医療 機器 向け 画像 処理 プロ セッ サ の 開発 事例 を 紹介 
する . 筆者 ら は , 実効 性 能 が 10.2GFLOPS (1GFLOPS は , 
1 秒 当たり 10 億 回 の 浮動 小数 点 演算 ) の 画像 処理 プロ セッ サ 
を 開発 し た . 医療 機器 に お ける 画像 処理 で は , 再 構成 演算 や ボ 
リュ ー ム ・ レ ンダ リン グ な ど , 非常 に 負荷 の 重い 処理 を 行う ケ 
ー ス が 多い . その た め , 筆者 ら は 高 性 能 な カス タム ・ プ ロ セ ッ 
サ を 開発 し て いる . 今回 の プロ セッ サ 開 発 で は , 多 並列 化 や ベ 
クト ル 型 な どの 手法 を 駆使 し て , 性 能 の 向上 を 達成 し た . 
(編集 部 ) 


児 代 の プロ セッ サ 投 術 は 大 き な 転 換 期 を 迎え て いま す . 
半導体 プロ セス の 微細 化 に よっ て 性 能 を 向上 で きる , と い 
う 期待 は 小さ く な っ て きま し た . また , これ まで は パイ プ 
ライ ン の 段数 を 増やす こと が 性 能 向 上 の 常 と う 手段 で し た 
が , すでに 48 段 パイ プラ イン の プロ セッ サ が 登場 し て お 
り , さら な る 性 能 の 向上 を ねらう に は 根本 的 な アー キテ ク 
チャ の 変更 が 必要 に な り ま す . 

ここ で は これ か ら の プロ セッ サ 技 術 に つい て 考察 し , そ 
の 一 つの 方 向 性 の 例 と し て , 筆者 ら の 米国 TeraRecon 社 注 ) 
が 医療 機器 向け の 画像 処理 プロ セッ サ と し て 開発 し た 
「 XTrillion3.0」 の 技術 と 開発 の 経緯 を 説明 し ます . 


注 : TeraRecon 社 は 1997 年 5 月 に シリ コン バレ ー( 米国 カリ フォ ルニア 州 
San Mateo) に て , 日 本 人 医師 に より 設立 され た 医療 系 ベン チャ . 従業 
員数 は 米国 , 日 本 を 中心 に 約 230 名 . 主力 の 3 次 元 医療 画像 診断 装置 ア 
クエ リア ス ・ シ リー ズ 」 は 世界 で 1.000 台 を 超え る 稼働 実績 を 持つ . 信号 
処理 ・ 画 像 処理 関連 の 技術 を 保有 し て お り , 精密 な 医療 画像 の 提供 を 通 
じ て 医 療 の 質 を 向上 させ て いく こと を 目ざし て いる . 同社 の 日 本 支店 で 
は , 主として プロ セッ サ を 含む ハー ド ウェ ア の 開発 を 行っ て いる . 


@⑱ プロ セッ サ に は さま ざま な 分 類 法 が ある 

プロ セッ サ に は いろ いろ な 種類 が あり ます . 分 類 方 法 を 
表 1 に 示し まず この と お り に , きち ん と 分 か れる わけ で 
は な い が …). 

現代 の プロ セッ サ の ほとん ど は パイ プラ イン 化 さ れ て い 
ます . 例え ば , た ん に ALU arithmetic logical unit) が パ 
イプ ライ ン 化 され て いる だ け の も の は , ベク トル ・ プ ロ セ 
ッ サ と は 呼び ませ ん . チェ イニ ン ALU の 演算 結果 を そ 
の まま 次 の ALU に 渡す 機能 ) が で きる か , ベク トル ・ レ ジ 
スタ が ある か な ど で , スカ ラ ・ プ ロ セ ッ サ か ベク トル ・ プ 
ロ セ ッ サ か を 分 類 し ます . 

ベク トル ・ プ ロ セ ッ サ の 場合 , ベク ト ル 演 算 に 対応 する 
た め に RAM や レジ スタ ・ フ ァイル が 通常 の も の より も 高 
機能 こ な っ て いま す . ベク ト ル 型 スー パ ・ コ ンピュータ に 
分 類 さ れる NEC の SX シ リー ズ 」 や 地球 シミ ュ レ ー タ な ど 
は , 内 部 に 非常 に 高度 な スケ ジュ ー ラ を 実装 し て いま す . 
その た め , これ ら の プロ セッ サ は ベク ト ル 型 で は あり ます 
が , スカ ラ 演算 も 高 機能 で す . 

で は , パソ コン や ゲー ム 機 な ど で 使わ れ て いる 主流 の マ 
イク ロ プ ロ セ ッ サ は どの よう に 進化 し て いる の で し ょ う . 
例え ば PowerPC プ ロ セ ッ サ は , 内 部 に Altivec と 呼ぶ 機構 
を 備え て いま す . この 中 に は ベク トル ・ レ ジス タ が 含ま れ 
て お り , ベク トル ・ プ ロ セ ッ サ と し て の 側面 を 持っ て いま 
す . x86 は 高度 な OS 環境 と 組み 合わ せ て 使う こと を 前 提 
と し て お り , スカ ラ 演 算 の 強化 を 主軸 に お いて 改良 が 続け 
られ て いま す . 同じ CPU コア を 二 つ 実 装 す ダ デュ アル ・ 
コア 」 は , その 現れ で ある と 筆者 ら は 考え て いま す . 


』 ロロ 画 中 RN 日 ・ バン ド 幅 ツマ ・ 1 N ・ い 
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48 個 の ALU が 並列 動作 する 
実効 性 能 10.8GFLOPS の 
画像 処理 プロ セッ サ を 開発 


表 1 CISC complex instruction RISC reduced instruction LIW Iong instruction word) 
プロ セッ サ の 分 類 set computer) set computer) 


e 命令 に 複数 の 演算 命令 が 含ま れ て いる 


命令 長 が 可変 。 合 信長 が 固定 * 命令 の ビッ ト ・ フ ィ ー ル ド が 長い も の は , 

e 複 雑 な 命令 が ある So チル と くに VLIVX very Iong instruction word) 
< 命令 メモ リ が 少な く て 済む | "フス フッ と 呼 3 64 ピ ッ ト よ り 長 い の が 一 般 的 ) 
5 e メモ リ が 多い も の 2 
e 速度 が 上 げに くい 人 還 e スケジュ ー リ ング は コン パイ ラ が 担当 . 


ほか は ハー ド ・ ワ イヤ ー ド 論理 に て 処理 
( a) 命令 の 表現 方 法 に よる 分 類 


スカ ラ ・ プ ロ セ ッ サ 
( スー パス カラ ・ プ ロ セ ッ サ ) 
e 分 岐 が 頻繁 に 発生 する e 分 岐 が ほとん ど な い 実際 


ベク トル ・ プ ロ セ ッ サ 


SIMD single instruction MIMD( multiple instruction 
streammultiple data stream) | stream-multiple data stream) 


演算 は 演算 終了 まで あり えな い ) * 一 つの 命令 で 全 ALU が | * 全 ALU が 独立 に 演算 で き , 
e 演算 長 が 不 確 定 演算 長 が 確定 同じ 演算 を 実行 する それ ぞ れ 命令 を 持っ て いる 
( b) 得意 と する 演算 に よる 分 類 ( c) 並列 演算 方 法 に よる 分 類 
表 2 プロ セッ サ ピー ク 性 能 | FSB の バン ド 幅 | メモ リ ・ バ ンド 幅 ピー ク 性 能 の 12 倍 と FSB バン ド 幅 ま の 比 


性 能 と バン ド 幅 Pentium 4 EXT REME 


『 e 1 に R X ニ 489 
EDITON 373GHz 動作 ) 1492GFLOPS | 852G バ イト /s 106G バ イト /s 852G バ イト /s (1492GFLOPSX 12) = 48% 


Opteron 154 28GHz 動作 ) | 11.20GFLOPS | - 538G バ イト /s 538G バ イト /s (11.20GFLOPS X 12) = 40% 
Xenor( 32GHz 動作 ) 115GFLOPS 21.6G バ イト /s 224G バ イト /s 21.6G バ イト /s (115GFLOPS X 12) = 1.6% 
Cel( 32GHz 動作 ) 218GFLOPS 768G バ イト /s 256G バ イト /s 25.6G バ イト /s / 218GFLOPS X 12) = 10% 


注 : Opteron と Cell は メモ リ ・ バ ンド 幅 で 計算 


プロ セッ サ は , 並列 演算 の 方 式 に よっ て も 分 類 で きま す . 2) キャ ッシュ ・ メ モリ の 大 容量 化 
Pentium プロ セッ サ の マル チ メ デ ィ ア 拡張 命令 で ある SSE 実際 の アプ リケーション に お いて , プロ セッ サ の 実効 性 
( Streaming SIMD Extensions) な ど は SIMD に 分 類 され 能 は , 最適 化 な し に は 目標 を 達成 で き な い こと が 多々 あり 
ます . 最新 の GPU graphics processing unit) は , 一 部 に ます . これ は 上 問 和 な キャ ッシュ ・ リ フィ ル キャ ッシュ ・ 
MIMD を 採用 し て いま す . メモ リ の 中 身 を 入れ 替え る 処理 ) が 発生 し , 大 き な オ ー バ 

ヘッ ド が 生じ る か ら で す . この 頻度 を 下げ る た め , キャ ッ ツ 

人 @ 演算 性 能 を 上 げ る 方 法 は ひと 通り で は な い シュ ・ メ モリ ・ サ イズ を 大 きく する こと が 求め ら れ て いま 

表 1 の 分 類 を 踏ま えて , プロ セッ サ の 演算 性 能 を 引き 上 す . 現在 , 16M バイ ト の キャ ッシュ ・ メ モリ を 搭載 し て い 
げ る た め に どの よう な 方 法 が 残さ れ て いる の か を 考察 し て る プロ セッ サ が あり ます が , 現実 に は まだ まだ 足り ませ ん . 
み ま す . この 方 法 も , 半導体 の 集積 度 に 左右 され ます . 
1) 多 並 列 化 3) メイ ン ・ メ モリ と プロ セッ サ の 間 の バン ド 幅 の 拡大 

多 並列 化 の 代表 格 に は Xenow 米国 IBM 社 と 米国 Micro 表 2 に , ピー ク 性 能 , FSR front side bus) バン ド 幅 , 
soft 社 の 共同 開発 ), Cel IBM 社 , ソニ ー・ コ ンピュータ メモ リ ・ バ ンド 幅 の 例 を 列挙 し ます . Pentium 4 と Opteron 
エン タテ イン メン ト , 東芝 の 共同 開発 ), Niagar& 米国 は シン グル ・ コ ア の プロ セッ サ , Xenon と Cell は マル チコ 
Sun Microsystems 社 ), Pentium II 米国 Intel 社 ), Dual ア の プロ セッ サ で す . 
Core Optero 米国 Adyanced Micro Devices 社 ) な ど が 単 精度 浮動 小数 点 で 1FLOPS を 達成 する に は , 1 項 =4 
あり ます . Xenon や Cell は 家庭 用 ゲー ム 機 で 使わ れる も の バイ ト /s と する と , 2 項 演算 で は 読み 出し に 8 バイ ト , 結 
な の で , 名 まえ を ご 存じ の か た も 多い か と 思い ます . し か 果 の 書き 込み に 4 バイ ト 必要 で す . つま り , ピー ク 性 能 を 
し , 今後 , さら な る 多 並 列 化 が 可能 か どう か は LSI の 集積 で きる だ け 現 実 の 数 字 に 近づけ た けれ ば , メモ リ ・ バ ンド 
度 向上 , すなわち 半導体 プロ セス の 進歩 に 依存 し て いま す . 幅 が ピー ク 性能 値 の 12 倍 あれ ば よい こと に な り ま す . 


実際 に は キャ ッシュ ・ メ モリ 内 の 実効 性 能 は メモ リ ・ バ 
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ンド 幅 に か か わら すず 高く , 科学 技術 計算 の よう に キャ ッ シ 
ュ ユ ・ メ モリ に 演算 対象 の デー タ が 入り きら な い ア プリ ケー 
ショ ン で は , キャ ッシュ ・ リ フィ ル は か な り 高い 税 釜 オ 
ー バ ヘッ ド ) に な っ て いま す . 各 プ ロ セ ッ サ の ピー ク 性 能 
の 12 倍 と FSB バ ンド 幅 Opteron と Cel に つい て は メモ 
リ ・ バ ンド 幅 ) の 比 も 表 2 に 示し ます . 

さて , 一 時 期 , 世界 最速 を 誇っ て いた 地球 シミ ュ レ ー タ 
の プロ セッ サ は どう な っ て いる の で し ょ う . 計算 ノー ド と 
呼ば れる 1 グル ー プ に 8 個 の ベク トル ・ プ ロ セ ッ サ と 32 個 
の メ モリ ・ ユ ニッ ト が 合計 256G バ イト /s で 接続 され て い 
ます . 1 プロ セッ サ で は , 8GFLOPS の ピー ク 性 能 と 32G バ 
イト /s の FSB バ ンド 幅 に な り ま す . ピー ク 性 能 の 12 倍 と 
FSB バ ンド 幅 の 比 は 33.33% で す . さら に メモ リ ・ ユ ニッ ト 
は フル パイ プラ イン に な っ て お り , リー ド / ラ イト が 滞り 
な く 実行 され ます . 

数 字 だ け で 比較 する と , パソ コン や ゲー ム 機 で 使わ れ て 
いる マイ クロ プロ セッ サ は 地球 シミ ュ レ ー タ の 足元 に も 及 
びません が , コス ト と の ト レー ド オフ を 考え る と , パソ コ 
ン や ゲー ム 機 で 同じ 構成 を と る わけ に も いき ませ ん . こう 
し た マイ クロ プロ セッ サ で も ある 程度 の 実効 性 能 が 確保 で 
きる の は , キャ ッシュ 構造 の く ふう や ソフ ト ウェ ア の 最適 
化 が 図ら れ て いる た め だ と 思わ れ ま す . 

さて , この よう に プロ セッ サ の 性 能 改 善 の 方 法 は ひと 通 
り で は あり ませ ん . 以下 で は 医療 機器 に お ける 市 場 要 求 を 
説明 し た 後 , 筆者 ら が 開発 し た 画像 処理 プロ セッ サ 
( XTrilion30) の 概要 を 紹介 し ます . 本 プロ セッ サ は , 前 
ペー ジ で 述べ た 1) ~ 3) の 方 法 を 組み 合わ せ て 性 能 向 上 を 
実現 し て いま す . 


⑯ ハー ド で 実現 する か , ソフ ト で 実現 する か 
数 値 演算 を 必要 と する 装置 を 開発 する と き , その 処理 を 
ハー ド ・ ワ イヤ ー ド 論理 で 実現 する か , ソフ ト ウェア と 


図 1 
医療 機器 に お ける 画像 処 
理 の 流れ 

「 や MR( 磁気 共鳴 診断 装 
) に よっ て 画像 を 取り 込 
これ に 対し て , 再 構成 
算 , 可視 化 と いっ た 処理 
順番 に 施す . 


CT, MRI な ど で 取 り 込み 較 


呈 匠 人 け 下 9 
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プロ セッ サ ) で 実現 する か は , と て も 重要 な 検討 項目 で す . 
筆者 らち は お も に 医療 関係 の 画像 処理 , お よび 画像 処理 前 の 
正規 化 を 行う 数値 演算 を 得意 と し て いま す . 例え ば , 医 
療 ・ 工 業 用 CI( コン ピュ ー タ 断層 撮影 ) な ど で 必 要 に な る 
正規 化 処 理 や 画像 処理 を ハード ・ ワ イヤ ー ド 論理 で 実現 し 
た り , ソフ ト ウェ ア で 実現 し た り し て いま す . その た め の 
カス タム LSI を , 筆者 ら は 開発 し て いま す . 

ここ で , な ぜ , こう し た LSI を わざ わざ 開発 する 必要 が 
ある の か を 説明 し ます . 現在 主流 と な っ て いる GPU 例え 
ば , 米国 NVIDIA 社 や カナ ダ ATI Technologies 社 の 3 次 
売 グ ラフ ィ ッ クス TS1) の 多く は, サーラ ア エ ェ イ ス ・ じ レン ダリ 
ング と 呼ば れる モデリング 手 法 を 採用 し て いま す . これ は , 
面 の 集合 に 基づい て 視点 や 光源 , 反射 を 演算 し , 画像 を 生 
成す る 手法 で す . 一 方 , 医療 機器 で は , サー フェ イス ・ レ 
ンダ リン グ で は な く ボリ ュー ム ・ レ ンダ リン グ が 使わ れ ま 
す . 処理 の 単位 は 面 で は な く キュ ー ズ 立方体 ) で す . その 
た め , 市 販 の GPU を その まま 採用 し に くい と いう 事情 が 
あり ます . 

次 に , 医療 機器 で 必要 と な る 数 値 演算 の 概要 に つい て 説 
明 し まず 図 1). 

CT に よっ て 取得 する デー タ は , レン ト ゲン 写真 の よう 
な も の で す . これ を ぐる り と 360 度 回 転 さ せな が ら , 約 
1.000 枚 程度 の 連続 撮影 を 行い ます . 一 つの CT 画像 を 取得 
する た め に , 30 秒 ~ 1 分 程度 の 撮影 時 間 が か か り ま す . こ 
の レン ト ゲン 写真 を 使っ て 演算 し , キュ ー ブ 配 列 の 空間 に 
変換 する こと を 再 構成 演算 reconstruction)」 と 呼び ます . 
再 構成 演算 は と て も 負荷 の 重い 処理 で す . デー タ 量 に も よ 
り ま す が , 処理 に 10 分 ~ 20 分 程度 の 時 間 が か か り ま す . 

CT な ど で キ ャ プチ ャ し た 人 体 デ ー タ の 再 構 成 演算 が 終 
わっ た ら , その 結果 に 対し て レン ダリ ング 描画 ) を 行い ま 
す . この 処理 ば 可視 備 visualization)」 と 呼ば れ て いま す . 
医療 の 現場 で は , 心臓 や 脳 , 血管 , 消化 器官 な どの 内 臓 を 


コ 


再 構成 演算 可視 化 凶 


観察 し ます . 皮膚 や 骨 な ど は 胡 過 処理 を 行い か な がら レン ダ 
リン グ し ます . その 処理 の 後 , 問題 筒 所 の 観察 が 行え る よ 
うに な り ま す . この と き の レ ンダ リン グ 処 理 で は , 例え ば 
512X 512X 512= 134217728 ボ クセ ボク セル は 立方 体 
St to こう し た レン ダリ ング を 

に 実行 する た め , 例え ば 筆者 ら は ハー ドウ ェ ア ・ ポ ボリ 
ュー ム ・ レ ンダ リン グ ・ ボ ー ド 「 VolumePro 1000」 を 開 
発 ・ 出荷 し て いま す . 


@ 目的 を 明確 に し て , ハー ド , ソフ ト の 両方 を 開発 
医療 機器 に 使わ れる ボリ ュー ム ・ レ ンダ リン グ は , バラ 
ンス が 重要 で す . 画質 ば か り 追求 する と , と て つも な い 演 
算 時 間 が 必要 に な り ま す . 速度 を 上 げ る た め に は , 画質 を 
落と さ な け れ ば な り ま せん . 医療 機器 で は 高 画質 と 高 性 能 
の 両立 が 求め られ ます . 

そこ で , 筆者 ら は こう し た レン ダリ ング 処理 を ハー ド ・ ワ 
イヤ ー ド 論理 で 実現 し て いま す . 例え ば , 上 述 の Volume 
Pro 1000 は , パソ コン ・ ベ ー ス の シス テム と 比較 し た と き , 
10 倍 程度 の 性 能 を 備え て いま す . 画質 を さほど 落と さ ず に , 
透過 処理 や クリ ッ プ 処理 を 行い な が ら 30 フ レー ム /s の レン 
ダリ ング を 行え ます . 

た だ し , ハー ド ・ ワ イヤ ー ド 論理 に よる 設計 で は , 多種 
多様 な 要求 に は 対応 で きま せん 機能 を 自由 に カス タマ イ 
ズ で き な い ). そこ で 同時 並行 で 開発 し て いる の が , ソフ 
トウ ェ ア に よっ て 処理 を 実現 する XTrilion プ ロ セ ッ サ で 
す . これ は , 再 構成 演算 を は じ め と する 医療 機器 の 各種 数 
値 演算 に 対応 する LSI で , ソフ ト ウェ ア 処 理 に 
性 能 を ね ら っ て 開発 し て いま す . 

ハー ド ・ ワ イヤ ー ド 論理 に よる 3 次 元 画像 処理 ボー ド と 
ソフ ト ウェ ア 処 理 に よる プロ セッ サ に は , それ ぞ れ 明確 な 
目的 が あり , 両方 の 開発 を 続け て きま し た . XTrillion プロ 
セッ サ に つい て は , バー ジョ ン 1.0, 1.5 と 開発 され , 2001 
年 に バー ジョ ン 20 が リリ ー ス され て , 現在 , 医療 機器 メ 

に 提供 され て いま す . また , 最新 版 の XTrilion3.0 が , 
現在 , リリ ー ス 直前 の 状態 に まで 来 て いま す . 
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お ける 最高 


人 @ 8 個 の ベク トル ・ プ ロ セ ッ サ を 相互 に 全 直 結 

2001 年 の XTrilion20 の リリ ー ス か ら ほ ど な く , 筆者 ら 
は 次 期 プ ロ セ ッ サ の 開発 に 着手 する 必要 に 迫 ら れ ま し た. 
これ は プロ セッ サ の 宿命 で も あり ます が , 継続 的 に 演算 人 能 
力 を 向上 する こと が 求め られ る た めで す . 


48 個 の ALU が 並列 動作 する 
実効 性 能 10.8GFLOPS の 
画像 処理 プロ セッ サ を 開発 


最初 に アー キテ クチ ャ の 検討 か ら 始め まし た . 当時 , も 
っ と も ポ ピ ュ ラ な 半導体 プロ セス は 0.18 /m で あり , 半 導 
体 プロ セス に 関す る 知識 や 経験 の 逐 し い 筆 者 ら が , Intel 社 
の よう に 1GHz で 動作 する プロ セッ サ を 開発 する こと ば 夢 
の また 夢 」 で し た . 当時 , 筆者 ら は ,「 似 た よう な RISC プ 
ロ セ ッ サ を 開発 し て も 意味 が な い 」 と 考え て いま し た . こ 
の 発想 が 今回 の プロ セッ サ 開 発 の 根幹 と な り , 自然 に 多 並 
列 化 を 目 ざ さす こと に な り ま し た . 

最初 は , 当時 の Pentium プロ セッ サ な どの 性 能 を 考慮 し 
て , 166MHz 動作 で 8GFLOPS 程 度 の 性 能 を 目標 と し まし 
た . 多 並 贅 化 する こと で , 多数 の ALU が 必要 に な り ま す . 
単純 な 割り 算 で も , ALU ば 8GFLOPS+ 166MHz =) 48 
周 必 要 で す . この 48 個 を どう や っ て 接続 する か , ここ が も 
っ と も 肝心 な と ころ で し た . 

48 個 の ALU を 単純 に 一 つの 命令 で 管理 する と , 48SIMD 
プロ セッ サ に な っ て し まい ます . また , も と も と RISC プ 
ロ セ ッ サ に は し な いと 決め て いま し た が , 実効 性 能 も 高く 
し な けれ ば な り ま せん . 実効 性 能 が 高い と いう こと は ,「 プ 
ロ セ ッ サ が 止ま ら な い . いや , 止ま っ て は な ら な い 」 と 考 
え を 巡ら せま し た . つま る と ころ , すべ て の 演算 が スル ー 
プッ ト 1 で あれ ば 問題 な い は ず で す . そこ で , パイ プラ イ 
ン 化 , すなわち ベク ト ル 型 を 採用 する こと に し まし た . 

ベク トル ・ プ ロ セ ッ サ の 歴史 は 長く , 初め て 商業 的 に 
成功 し た ベク トル ・ プ ロ セ ッ サ 搭載 マシ ン は , 1976 年 
Seymour Cray 氏 が 開発 し 肝 CRAY-1」 で す . ベク ト ル ・ 
プロ セッ サ の 設計 経験 の な い 筆者 ら が スー パ ・ コ ン ピ ュ 
ー タ の 父 」 と 呼ば れ た Cray 氏 を 越え られ る わけ が あり ませ 
ん . た だ し , ベク トル ・ プ ロ セ ッ サ の 問題 の 多く は , 複雑 
な スケ ジュ ー ラ 回 路 に 集中 し て いま す . 幸運 な こと に , 筆 
者 ら は 優秀 な ソフ トウ ェ ア ・ エ ンジ ニア に 上 恵まれ て お り , 
スケ ジュ ー リ ング を コン パイ ラ 任 せ に する こと で , この 問 
題 を 回 避 す る こと に し まし た . 

し か し , 48 個 の ALU を 接続 する と いう 問題 は まだ 残っ 
て いま す . ここ で , 設計 可能 な 方 法 を 見 つけ 出す こと に 多 
く の 時 間 を 費やし まし た . 結果 的 に は , これ ら を 8 分 割 し 
て , 1CPU ブ ロッ ク に つき 6 個 の ALU を 搭載 する こと に し 
まし た . 並列 プロ セッ サ な の で , 当然 の こと な が ら 6 個 の 
ALU を 一 つの 命令 で 管理 し ます . そし て 今度 は , 8 個 の 
CPU ブロ ッ ク ど うし の 通信 方 式 が 問題 と な り ま す . 

ここ で は 思い 切り よく 全 直 結 と する こと に し まし だ 図 2). 
この 思い 切り が な か っ た ら , お そら く 目 標 性 能 は 達成 で き 
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な か っ た と 思い ます . 


@ RISC を 集積 , 並列 ベク トル 型 MIMD プロ セッ サ に 

次 に , 本 CPU ブロ ッ ク の 仕様 に つい て 説明 し ます . 

か り に, ベク ト ルル 演算 用 ALU 以下 , VALU) を すべ て 
同じ 処理 を 行え る 仕様 に し た と する と , 天文 学 的 な 規模 の 
ゲー ト が 必要 に な り ま す . ベク トル ・ プ ロ セ ッ サ の 特徴 と 
も いえ る チェ イニ ング が で き な い と , 性 能 も が た 落ち で す . 
SIMD の よう に 同じ 演算 を 6 個 の ALU が 繰り 返す よう で 
は , 性 能 向上 の 効果 が 下がり ます . そこ で , 以下 の よう な 
構成 に 決め まし た . 


e 乗算 加減 算 VALUX 4 個 

e 除算 加減 算 VALUX 1 個 

e 超越 関数 演算 VALUx 1 個 後に , VFUN と 改名 ) 

eSK ワ ー ド ・ ベ クト ル ・ レ ジス タメ X 1 個 

e 命令 RAMX 1 個 

e チ ェ イ ニン グ ・ テ ー ブ ル < 64 個 当初 は 16 個 だ っ た が 
テー プア ウト 間近 に 64 個 に 変更 し た ) 

e コ マン ド ・ プ ロ セ ッ サ ( 簡単 な CPU) 1 個 


これ ら を 内 蔵 す る CPU ブロ ッ ク を , 筆者 ら は ば VPIPE」 
と 呼ん で いま す . それ ぞ れ の 演算 器 は 別々 に 演算 を 実行 で 
きる 命令 仕様 と し まし た が , 結局 . これら を まとめ る スケ 
ジュ ー ラ が 必要 と なり , 当初 の 意気 込み と は 少し 外れ て , 
RISC プ ロ セ ッ サ を 1 個 搭 載 す る こと に し まし た . つま り , 
合計 で 9 個 の CPM ブロ ッ ク ) を 内 蔵 する 並列 演算 チッ プ と 
な り , この 時 点 で 並列 ベク ト ル 型 MIMD プ ロ セ ッ サ と な り 
まし た . 


@ フィ ジ カ ル 合 成 ツ ソー ル や レイ アウ ト 設 計 サ ービス を 利用 
ここ で , 少し 苦労 話 を 紹介 し ます . 仕様 が 決ま り , 本 格 


図 2 

プロ セッ サ 間 の 結合 の イ 
メー ジ 

8 個 の プロ セッ サ ど うし を , 
思い 切り よく 全 直 結 し た . 
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的 な 設計 を 開始 し まし た が , 開発 人 員 が 明らか に 不足 し て 
いま し た . ASIC 開 発 の 経験 上 . も っ と も 人 員 が 必要 な の 
は 検証 と 配置 配線 で す . 

この と き 筆 者 ら の 目 に 留まっ た の が , 米国 Synplicity 社 
の フィ ジ カ ル 合 成 ツ ー ル Amplify ASIC」 で し た . 一 般 的 
な 論理 合成 ツー ル と は 異な り , 物理 的 な 制約 を 考慮 し つつ , 
仮 の 配置 配線 まで 実行 し て くれ ま す . また , チッ プ に な っ 
た と き と 比 べ て タイ ミン グ の 論 差 が 小さ く , 合成 結果 が 目 
標 に 達し て いれ ば 配置 配線 の 手 戻り の 回 数 が 最小 で 済む , 
と の 触れ 込み で し た . 筆者 ら は , すぐ に この ツー ル に 飛び 
つき まし た . ほど な く 試作 の ベク ト ル ALU の 設計 が し あ 
が り , Synplicity 社 の 協力 を 得 て 合 成 を 行っ た と ころ , 166 
MHz を 超え る 結果 が 出 ま し た . この ころ , 32GHz 動作 の 
Pentium 4 プロ セッ サ が すでに 市 場 に 出回り , も っ と 高 性 
能 に する 必要 に 人 迫 ら れ た こと も あり , 目標 クロ ッ ク を それ 
まで の 倍 の 333MHz に 変更 する こと に な り ま し た . 当時 
フィ ジ カ ル 合 成 の 結果 に 自信 満々 で 楽勝 ムー ド で し た が , こ 
の 高い 目標 に 後々 最後 まで 苦し め ら れる こと に な り ま し た . 
次 に , この 巨大 な プロ セッ サ の 検証 を どう や っ て 行う か , 
これ も 悩み に 悩み まし た . 最終 的 に は , プロ セッ サ 全 体 が 
入る FPGA 基板 を 作っ て し まい まし が 写真 1). FPGA の 
総数 は 74 個 で , 1.000W の 電源 で 動作 し ます . 自 衝 ?) 世 
界 最大 の PCI ボー ド が で き 上 が り ま し た . この よう な 検証 
用 基板 は 2 度 と 作り た いと は 思い ませ ん . 基板 の アー トワ 
ー ク と 製造 を 担当 し た 協力 会 社 の 尽力 に より , な ん と か 完 
成 さ せる こと が で きま し た . パソ コン 上 の 論理 シミ ュ レ ー 


ショ ン で 333Hz で 動作 し て いた も の が , 33.3MHZ 実機 の 


48 個 の ALU が 並列 動作 する 


実効 性 能 10.BGFLOPS の 
画像 処理 プロ セッ サ を 開発 
1/10 の 動作 周波 数 . 最高 で 50MHz の 動作 も 確認 し た ) で A プロ セッ サ 開 発 の 苦労 」 を 参照 ). 
動く よう に な り , 検証 速度 は シミ ュ レ ーション の 10 万 僅 に チッ プ は 一 発 で 動作 し , 感動 は ひと し お で し た . も ちろ 
改善 し まし た . ん チッ プ は 目標 どおり 333MHz で 動作 し , Ampiify ASIC 
次 の 問題 は , LSI に する た め に は , 配置 配線 を 行わ な け の 高 精度 と Alchip 社 の 配置 配線 の 優秀 さも 確認 で きま し た . 
れ ば な ら な いこ と で し た . ここ で 登場 し た の が , 台湾 の 
Alchip Technologies 社 で し た . 彼ら は 整備 され た 設計 方 人 @ 実効 性 能 が RISC より 高い こと を 確認 
法論 っ マン ・ パ ワー を 持ち 合わ せ た 企 業 で し た . 初め て の 本 プロ セッ サ の 概要 を 図 3 に 示し ます . 基本 動作 の 検証 
打ち 合わ せ を 行っ た と き に 非凡 さ を 感じ ,.「 ここ し か な い 」 は , ES チッ プ の 到着 か ら 6 時 間 程 度 で 済み まし た . これ も 
と 上 司 を 説得 し まし た . 設計 段階 で , 検証 に つぐ 検証 を 実施 し た 苦労 の 結果 で ある 
と は 言え , 一 般 に 利用 で きる CMOS プ ロ セ ス を 使っ て と 考え て いま す . 
333MHz 動作 を 実現 する こと は か な り 困難 で し た . 333 いち ば ん 問題 と な る 実効 性 能 で す が , 表 3 の よう に な っ 
MHz で 確実 に 動作 させ る た め に は , さま ざま な 要因 を 検討 て いま す . この 数 値 は 単 精度 浮動 小数 点 演算 の 結果 で す . 


し , 最悪 ケー ス で も 363MHz で 動作 する ネッ トリ スト を 用 
意 す る 必要 が あり まし た . この 目標 を 達成 する た め に , ま 


あー 項 目 仕 様 

た 血 の に じ む よう な 苦労 を 重ね た 結果 , ネッ トリ スト を 放 二 二 E コア 部 。 12V。 リ O 部 : 3 
Alchip 社 に 提出 し た 後 は , タイ ミン グ 違 反 に 起因 する 配置 | 消費 電力 最大 189W 

こ パッ ケー ジ 1155 ピ ン FBGA , フリ ッ プ チッ プ 実 装 

6 ( さ 7 1 
配線 の 手 戻り は いっ さい 発生 し ませ ん で し た . Amplify 還 ED 2 生 CN に の 
ASIC と 巨大 な FPGA 基板 , Synplicity 社 の 深夜 を いと わ [ VMEM: 64K バ イト ( 16K バ イト X 4 
和 販 0 MRNI 0 命令 RAM: 512K バ イト ( 64K バ イト X 8 

な い サ ポー ト , Alchip 社 の 豊富 な 設計 経験 , 開発 メン バ の チェ イニ ング ・ テ ー ブ ル : 64 
不眠 不 休 の 努力 と 不 退 転 の 覚悟 が そろ い , ES engineering | RIsc 部 内 蔵 メ モリ 2 し MI 間 陳 
sample) チッ プ が 2005 年 11 月 に 到着 し まし だ 下 掲 の コラ 128K バ イト ( 16K バ イト X8) 


SDRAM イ ンタ ー フ ェ ー ス | 64 ビ ッ ト X2 最大 512M バイ ト の SDRAM と 接続 
SRAM イ ンタ ー フ ェ ー ス | 64 ビ ッ ト X 4 最大 128M バイ ト の SRAM と 接続 


コア 部 : 最大 333MHz 


> 動作 周波 数 外部 メモ リ : 最大 166MHz 
TERARECON.INGl ( 内 部 クロ ッ ク と 同じ , また は 1/2 の 周波 数 ) 


XTriion 外部 |/O バ ス 64 ビ ッ ト xX 2 ポー ト , コア 部 と 非同期 動作 
理論 ピー ク 性 能 13320MFLOPS 十 2664MFLOPS, 
( VALU 部 十 VFUN 部 ) 53280MOPS 十 2664MOPS 


ル ers7o7 3. の 
.20051012 0542 


図 3 
XTrillion3.0 の 概要 MFLOPS : million floating-point operations per second 
単 精度 浮動 小数 点 演算 で 16GFLOPS の ピ MOPS : million operation per second 

ー ク 性 能 を 達成 し た . ( a) チッ プ の 外観 ( b) お も な 仕様 


コラ ム | プロ セッ サ 開 発 の 苦労 


今回 の プロ セッ サ の 開発 は , 8 名 この うち , ソフ トウ ェ ア 担 当 が 2 前 々 日 の 朝 ま で ユー ディ ング と シミ ュ レ ーション を 繰り 返し , その ま 
名 ) で 行い まし た . チッ プ の 製造 や FPGA 基板 の 製作 に つい て は 外部 ま 故 卿 行き の 飛行 機 に 乗り まし た . 会 社 に りっぱ な お 風呂 セッ ト を 用 
の 企業 に 委託 し まし た が , 仕様 検討 ⑯ コ ー デ ィング , シミ ュ レ ー シ ョ 意 し た メン バ , 寝袋 に 入る 気力 も な くそ の まま 抱き か か えて 寝 て し ま 
ン , 検証 , フィ ジ カ ル 合 成 論理 合成 ) な ど は すべ て 社内 で 行い まし っ た メン バ , 作業 に 夢中 に な りす ぎ て 1 日 食事 を 取る の を 忘れ た メン 
た . 工程 数 は 最終 的 に 600 項 目 に 及び , ほとん ど 会社 に 泊り 込ん で い バ , そし て 終電 に 乗り 遅れ て 会 社 に 戻っ て きた メン バ …. 申し わけ な 
た 時 期 も あり まし た . いと 思い つつ 久しぶり に 自宅 に 帰る と , 自分 の 記憶 で は オム ツ 付 き で 

プロ セッ サ 開 発 は , ハー ドウ ェ ア の みな ら ず , 検証 の 数 学 的 解決 や ヨチヨチ 歩き だ っ た わが 子 が , 普通 に 立っ て 歩き 回 っ て いま し た . こ 
コン パイ ラ 開 発 , 工程 管理 な ど , 困難 を 極め ます . ここ で , も っ と も の と き は , さす が に われ に 返り まし た . 

大 事 な こ と は 作り た い 」 と 思う 気持 ち で す .「 作り た い 」 と いう 強い よく こん な こと が で きた も の で す . メン バ , お よび 家族 の みな さん 


U 


7 


ニン ーーーーーーーーーーーーーーーーーーーーーーーー ニ ーー 
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意志 さえ あれ ば , けっ こう 何と か な る も の で す . の 理解 と 協力 あき ら め ? ) に 感謝 する し だ いで す . この プロ セッ サ 
振り 返っ て みる と , 開発 期間 中 に 結婚 を 果たし た メン バ は 結婚 式 の 。 は , コン ピュ ー タ を 愛す る , 少し アブ ナイ 人 々 に よっ て 作ら れ ま し た . 
ei レコ 
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表 3 ピー ク 性 能 と 実効 性 能 

実効 性 能 / 
ピー ク 性 能 
Xeon 11.2GFLOPS | 65GFLOPS き 58%6 
Opteron 246 80GFLOPS | 46GFLOPS き 58%6 
PowerPC G5 160GFLOPS | 9.1GFLOPS を 
XTrillion30 159GFLOPS | 102GFLOPS 64%6 


プロ セッ サ | 遍 ピー ク 性 能 | 実効 必 能 


注 : http//wwwrftw.org/ を 参照. 


比較 対象 の プロ セッ サ が や や 古い の で す が , ここ で は パテ 
1024, Radix-2 1D Complex Single Precision Floating 
Point FFT( fast Fourier transform) を ベン チマ ー ク と し 
て 利用 し まし た . 

アー キテ クチ ャ が 異な り ま す が , RISC プ ロ セ ッ サ の 実 
効 性 能 と ピー ク 性 能 の 比 は 57%^ 58%, 本 プロ セッ サ で は 
64% と な っ て いま す . FEFT に 使用 し な い 超 越 関数 演算 器 
( VFUN) を 入れ な けれ ば , ピー ク 性 能 は 13.33GFLOPS, 
実効 性 能 は 77% と な り ま す . 

実際 の アプ リケーション で は , これ ほど RISC プ ロ セ ッ 
サ に と っ て 好 条 件 に な る 演算 は そう 多く ありま せん. 一 方 , 
本 プロ セッ サ は , ベク ト ル 化 で きる 演算 で あれ ば 高 効率 で 
実行 し ます . 


信 x86 プロ セッ サ と 役割 を 分 担 
x86 ア ー キ テク チャ に お いて も , 組み 込み 機器 へ の 搭載 


XTrilion2.0 図 
プロ セッ サ 図 
( 10 個 ) 


し ツ クア ッ プ ・ バ ッ テリ 人 


( a) 1020BE 


写真 2 搭載 ボー ド の 例 


を 視野 に 入れ た 消費 電力 10W 以下 の プロ セッ サ が 登場 し て 
いま す . 組み 込み シス テム に も 並列 プロ セッ サ に よる 並列 
処理 の 波 が 押し 寄せ て き て いま す . 筆者 ら は , 今回 開発 し 
た プロ セッ サ が x86 プ ロ セ ッ サ に と っ て 代わ る と は 考え て 
いま せん . RISC CPU を 内蔵 し て いる の で Linux OS な ど 
も 実行 可能 で す が , スカ ラ 演算 と な る と x86 の 足元 に も 及 
びません . また , 巨大 な メモ リ 空間 の 管理 や セキ ュ リ テ 
イ ・ ビット な ど , OS を 安全 に 動作 させ る た め の し くみ も 
ぜ い 弱 で す . 本 プロ セッ サ は あく まで も , ベク ト ル 化 が 可 
能 な 演算 で 真価 を 発揮 する プロ セッ サ な の で す . 

本 プロ セッ サ は , 既存 の シス テム に 追加 で 組み 込む 用 途 
を ね ら っ て 開発 し て いま す . その し くみ に つい て , ポイ ン 
ト を 説明 し ます . 

実際 の 信号 処理 や 画像 処理 な ど で は 前 処理 が あり , A-D 
コン バー タ な ど で デ ィ ジ タル 化 さ れ た デー タ を 次 段 へ 引き 
渡し ます . 本 プロ セッ サ で は こう し た 処理 の 流れ を 前 提 と 
し て お り , X-BUS と 呼ば れる バス ・ イ ンタ ー フ ェ ー ス を 二 
つ 用 意 し て いま す . ここ で , X-BUS の バス ・ ク ロッ ク は コ 

ア 部 の クロ ッ ク と 同期 し て いる 必要 は あり ませ ん . 本 プロ 

セッ サ の 内 部 で 非同期 乗り 換え を 行っ て いる の で , 接続 は 
スム ー ズ に 行え ます . 処理 後 の 結 果 に つい て は , PCI バ ス 
な どの DMA 転送 で 外部 の ホス ト ・ マ シン ( パソ コン ) に 引 
日 すこ と と ど が で きま す 。 

各種 の 信号 処理 が 終わ っ た ら 可視 化 を 行い , ユー ザ に 対 


XTrilion3.0 図 
プロ セッ ポ 4 個 ) 図 


| Tlon3.0 プ ロ セッ サ 用 メモ リ 区 [ ウタ アッ プ ・ パッ テリ 国 


( b) 430PA 


( a) は , 2 個 の RISC プロ セッ サ と 10 個 の XTrillion2.0 を 1 枚 の 基板 に 搭載 し て いる . 基板 サイ ズ は 320mm X 250mm. も と も と 並列 化 を 想定 し て 設計 され て いる 
プロ セッ サ な の で , こう いっ た 構成 は 容易 に 実現 で きる . ( b) は , 1 個 の Pentium M プ ロ セ ッ サ と 4 個 の XTrillion3.0 を 搭載 し て いる . ボー ド 全体 の 処理 性 能 は 64 


GFLOPS. 
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48 個 の ALU が 並列 動作 する 


実効 性 能 10.BGFLOPS の 
画像 処理 プロ セッ サ を 開発 
ボー ル 数 | Xeon の み | XTrillion30 を 1 個 追 加 | XTrillion30 を 2 個 追加 Modc.XT:4096 OB 4092SUR 144 
Calc 39.13(40.64)[116.63>38.97] msec 
@4 個 052ms 364ms 014 倍 ) 735ms 007 倍 ) GL2334 msec( 256fps/ 10959 fm) 

128 個 1.15ms 364ms 030 倍 ) 735ms 016 倍 ) 
図 4 256 個 282ms 364ms 074 倍 ) 735ms 038 倍 ) 
処理 性 能 の 評価 512 個 792ms 364mg 218 倍 ) 735mg 1.08 倍 ) 
誌面 で は わか り に くい が , 1.024 個 2455ms 751ms 327 倍 ) 735ms 334 倍 ) 
演算 を 担当 し て いる プロ セ 2048 個 8385ms 2377ms 352 倍 ) 1469ms 571 倍 ) 


ッ サ 別に 色分け し て 表示 さ 
せ て いる . 


4096 個 303.44ms 因 3902ms 7.78 倍 ) 
( a) ボー ル 数 と 演算 時 間 


し て 結果 を 出力 し ます . OS の 管理 な ど を 含め て , ユー ザ ・ 
イン ター フェ ー ス 処理 は ホス ト ・ マ シン が 担当 する こと を 想 
定 し て いま す . また , ホス ト 側が 信号 処理 な ど に リソー ス 
を 割く 必要 は あり ませ ん . つま り , ホス ト ・ マ シン の プロ 
セッ サ に , それ ほど 高 性 能 な も の を 使う 必要 が な い の で す . 

一 般 に , 万 能 の プロ セッ サ は 存在 し ませ ん . シス テム 設 
計 で は , プロ セッ サ の 特徴 を 考慮 し て 選択 し , 組み 合わ せ 
る 必要 が あり ます . 汎用 の マイ クロ プロ セッ サ だ け で は 不 


D 
XTnillion x 2 (x7.68) 


( b) シミ ュ レ ーション 


足す る 演算 能力 を 補う ため, 本 プロ セッ サ の よう な 数 値 演 の 向上 が 見 られ る こと が わか り ま す . ボー ル が 少な い 場 合 
算 用 プロ セッ サ を 多 並 列 化 し て , 所 望 の 性 能 を 達成 する の は Xeon の ほう が 高速 で す が , 玉 が 増え る に し た が っ て 本 
も 一 つの 方 法 だ と 思い ます . この 考え か た に 基づい て , 筆 プロ セッ サ を 追加 し た ほう が 有利 に な り ま す . これ は , キ 
者 ら は いく つか の 並列 プロ セッ サ ・ シ ステ バ ボー ド ) を 設 ャ ッシュ ・ リ フィ ル が 頻発 し , 実効 性 能 が どん どん 低下 し 
計 し て きま し た . その 例 を 写真 2 に 示し ます . て いる こと が 原因 で ある と 考え られ ます . ボー ル の 数 や 壁 

の 数 が 増え れ ば 増え る ほど , この 差 は 広がっ て いき ます . 
人 @ x86 だ け の 場合 と 比較 し て , 処理 性 能 は 最大 7.78 倍 に これ が ベク トル ・ プ ロ セ ッ サ の 特徴 で す . 


最後 に 本 プロ セッ サ の 性 能 評価 の 例 を 示し ます . ここ で 
は PCI ボー ド に 2 個 の 本 プロ セッ サ を 実装 し た 基板 230AX) 


を 使い まし た. 
図 4 は , 3GHiz の クロ ッ ク で 動作 する Intel 社 の Xeon プ M 
5 米国 TeraRecon 社 
ロ セ ッ サ だ け で 処理 し た 場合 と , Xeon プロ セッ サ と 1 個 ま 
た は 2 個 の 本 プロ セッ サ を 組み 合わ せ て 処理 し た 場合 の 比 ご 筆者 プロ フィ ー ル > 
較 で す . 落下 し て くる ボー ル は 最大 4096 個 で , 壁 と の 衝 和合 E4 給 EE 
ョ [ 舘 ] , ーッ リ っ 過 に ま ャ , 並列 コン ピュ ー タ 関連 ベン チャ を 渡り 歩く . コン ピュ ー タ ば か に 
突 と 重力 を 計算 し 続け て いま す . 表示 に は OpenGL ラ イブ 拍車 が か か り , 医療 機器 メー カ で ある TeraRecon 社 が プロ セッ サ 設 
ラリ を 使用 し て いま す . この 部 分 だ け は Xeon プ ロ セ ッ サ 計 を や っ て いる こと だ け を 理由 に , 2000 年 に 入社 . 自分 で や ら な いと 
の 力 を 借り な けれ ば な り ま せん . それ 以外 の 計算 は すべ て 気 が 済ま な い 自己 中 心 型 . 地球 シミ ュ レ ー タ を 分 解 し て みた いと チャ 
ンス を ね ら っ て いる . な お , TeraRecon 社 は 業容 拡大 中 に つき , 現 
本 プロ セッ サ で 処理 し て いま す . 在 , エン ジニ ア を 随時 募集 中 . 詳し く は , http://www.terarecon.co. 
本 プロ セッ サ を 2 個 使っ た 場合 , 最大 778 倍 の 処理 性 能 jp/ を 参照 し て く だ さい . 問い 合わ せ は info@terarecon.co.jp まで . 
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